M YI 


第 62 卷 第 5 期 2018 4 3 H 


虚拟 健康 社区 文本 数据 知识 发 现 策略 与 模型 ， 


E £&ig EHA RLA Amm 
! 吉林 大 学 公共 卫生 学 院 KA 130000 


?长 春 中 医药 大 学 现代 教育 技术 中 心 


长 春 130000 


摘要 : [目的 /意义 ] 分 析 并 提出 虚拟 健康 社区 文本 数据 的 知识 发 现 策 略 , 构 建 庶 拟 健 康 社 区 文本 数据 知识 
发 现 模型 。[ 方法“ 过程 ] 通 过 总 结 分 析 虚 拟 健 康 社 区 文本 数据 特点 ,针对 其 特点 带 来 的 数据 挖 气 困 难 制 定 相 应 
的 知识 发 现 策略 ,并 在 DIKW 体系 指导 下 ,依据 提出 的 知识 发 现 策 略 构建 虚拟 健康 社区 文本 数据 知识 发 现 模 
型 。 通 过 应 用 计算 机 编码 、 自 然 语言 处 理 技术 、 多 法 分 析 、 制 定 推理 规则 等 方法 实现 从 自由 文本 数据 到 药物 不 
良 反 应 智慧 的 数据 价值 升华 过 程 。[ 结果 /结论 ] 通 过 实证 研究 验证 提出 的 知识 发 现 策略 和 知识 发 现 模型 的 有 
效 性 和 可 操作 性 ,为 后 续 虚 拟 健康 社区 文本 数据 知识 发 现 的 相关 理论 与 实证 研究 提供 参考 。 
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近年 来 , 随 着 互联 网 的 发 展 和 社交 媒体 的 盛行 ,人 
们 越 来 越 多 地 选择 通过 社交 媒体 获得 健康 相关 信息 ， 
虚 搞 健 康 社区 作为 常见 的 社交 媒体 类 型 ,逐渐 成 为 互 
联网 中 最 热门 的 讨论 话题 之 一 ,同时 也 日 益 引 起 学 术 
界 的 广泛 关注 。 虚 拟 健康 社区 为 用 户 分 享 彼此 的 经 验 


实 的 数据 基础 ,但 是 虚拟 健康 社区 数据 的 潜在 有 价值 
信息 需要 通过 进行 处 理 才能 获得 其 中 隐 含 的 知识 和 智 


现 了 从 数据 到 信息 、 再 到 知识 的 层 层 沉淀 凝练 最 终 到 
智慧 的 转化 过 程 。 因 此 基于 DIKW 体系 从 数据 - 信息 


称 剖 点 提供 了 可 交互 平台 ,虚拟 健康 社区 中 由 用 户 生 
成 葬 数 据 量 呈 爆炸 式 增长 , 且 虚 拟 健康 社区 数据 中 区 
合 着 大 量 有 价值 的 信息 ,这 为 知识 发 现 提供 了 新 的 研 
究 络 域 。 面 对 海量 的 ,文本 化 的 文本 内 容 表述 不 规范 
的 章 拟 健康 社区 数据 信息 ,如 何 从 中 发 现 领域 用 户 感 
兴 超 的 领域 相关 信息 是 当下 面临 的 一 大 挑战 。 虚 拟 健 
康 社区 作为 一 种 新 兴 的 领域 研究 数据 来 源 , 相 比 传统 
文献 数据 库 与 科研 实验 数据 库 , 其 特色 在 于 :名 虚拟 健 
康 社区 具备 海量 的 数据 资源 可 供 挖 气 使 用 ;名 虚拟 健 
康 社区 中 的 领域 数据 更 加 贴近 用 户 的 真实 情况 的 反 
应 ;@ 虚 拟 健 康 社区 中 的 数据 由 用 户 自愿 生成 ;@ 虚 拟 
健康 社区 中 的 数据 具有 更 好 的 时 效 性 ,数据 更 新 速度 
也 更 快 。 从 以 上 描述 可 以 看 出 ,虚拟 健康 社区 具有 数 
据 传输 速度 快 .应 用 范围 广 、 更 新 频率 快 等 特征 , 且 其 
中 斑 仿 大量 数据 形式 复杂 多 样 .价值 深 坦 有 待 挖掘 的 
虚拟 健康 社区 数据 ,为 数据 挖掘 及 知识 发 现 黄 定 了 坚 


知识 -智慧 的 转换 过 程 可 抽象 出 一 个 通用 方法 模 
型 ,为 领域 用 户 对 虚拟 健康 社区 文本 数据 进行 知识 发 
现 研究 提供 指导 。 


1 基于 社交 媒体 的 健康 信息 知识 发 现 
研究 现状 


虚拟 健康 社区 ,作为 较为 典型 的 具有 学 科 领 域 特 
色 的 社交 媒体 中 的 一 种 , 随 着 人 们 越 来 越 多 地 到 虚拟 
健康 社区 中 分 享 和 寻找 健康 相关 信息 而 成 为 值得 重点 
关注 的 研究 对 象 。 通 过 对 社交 媒体 控 气 ”定义 的 理 
解 ,虚拟 健康 社区 挖掘 可 以 被 视 为 一 个 从 虚拟 健康 社 
区 数据 中 表示 、 分 析 和 提取 可 操作 的 模式 的 过 程 。 虚 
拟 健 康 社区 中 数据 的 飞速 增长 .数据 挖 据 技术 的 发 展 
和 生物 医学 领域 工具 和 资源 的 积累 ,使 得 从 虚拟 健康 
社区 数据 中 发 现 潜 在 的 有 用 知识 的 研究 有 了 可 靠 的 信 
息 源 和 技术 支撑 。 
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目前 基于 社交 媒体 的 健康 信息 挖掘 的 研究 主要 集 


步 情 感 分 析 法 从 Twitter 消息 的 情感 分 类 来 衡量 用 户 
对 某 种 疾病 的 关注 等 级 ,预测 在 疾病 影响 下 用 户 所 标 
识 的 关注 程度 ; D. Ghosh 等 中 以 肥胖 为 例 ,使 用 LDA 
( latent dirichlet allocation ) 主题 模型 和 空间 分 析 方 法 以 
识别 Twitter 中 健康 相关 的 话题 ;R. Mehrotra 1 提供 了 
两 种 新 的 方法 改进 LDA 主题 模型 以 对 微 博 内 容 行 识 
别 ,该 研究 为 用 户 提供 了 一 种 新 的 方法 ,可 以 显著 改建 
LDA 主题 建 模 ,而 无 需 对 底层 LDA 机 制 进行 修改 。J. 
Parker 等 ”提出 一 个 通用 框架 以 探测 Twitter 中 爆发 的 
公共 健康 趋势 ,该 研究 局 限 性 在 于 使 用 Wikipedia 和 
ICD 只 能 探测 到 之 前 已 知 的 疾病 ,无 法 探测 到 新 疾病 。 
SxBoan 等 ”提出 了 一 种 新 的 过 滤 方 法 ,从 587 000 000 
AE Tweet 中 筛选 流感 样 疾病 ( influenza -like -ilnesses , 
Io, 研究 中 使 用 的 语义 特征 过 滤 的 方法 对 于 基于 地 


KRE mweets 是 非常 有 用 的 ,可 以 广泛 地 适用 于 疾病 
和 粥 合 症状 ,如 可 通过 限定 某 个 或 某 些 区 域 来 探测 访 
区 域 流感 样 疾病 的 情况 。 P. Kostkova 等 加 通过 探测 疾 
病因 传播 来 展示 社交 网 络 的 早期 预警 的 能 力 ,并 展示 
将 猪 流感 期 间 在 线 资源 是 如 何 传播 的 ,研究 显示 社 
英 硬 休 的 实时 更 新 性 能 够 用 来 完善 疫情 早期 预警 探测 


等 外 使 用 社交 媒体 实时 技术 探测 和 远程 监视 HIV 的 


aw 


病 六 例 报告 ,不 能 实时 评估 最 近 的 艾滋 病 病 毒 感 染 或 


艾 泪 病危 险 行为 之 间 的 关系 。 由 此 产生 的 HIV 和 艾滋 
病 凯 毒 相关 的 Tweets 之 间 的 关系 在 评估 时 ,其 参与 者 
的 生活 地 区 已 是 艾滋 病毒 流行 的 地 区 。D. Barazanji 
等 "提出 一 个 系统 来 实现 点 源 爆发 的 监测 ,该 研究 主 
要 是 在 已 知 疾病 基础 上 的 疾病 暴发 监测 ,无 法 对 之 前 
未 发 生 过 的 疾病 进行 预测 。 综 上 所 述 ,领域 用 户 需要 
来 自 网 络 的 信息 ,尤其 是 虚拟 健康 社区 的 数据 。 而 目 
前 对 于 虚拟 健康 社区 知识 发 现 的 研究 主要 集中 在 通过 
对 虚拟 健康 社区 数据 内 容 的 分 析 发 现 领域 的 研究 热 
点 .研究 前 沿 和 研究 趋势 , 且 在 技术 方面 ,大 多 是 关于 
信息 抽取 方法 和 技术 的 应 用 研究 , 鲜 有 将 语言 学 理论 、 
自然 语言 处 理 技术 .学科 领域 知识 及 数据 挖掘 理论 相 
结合 ,进而 指导 虚拟 健康 社区 文本 数据 中 隐 含 知识 发 
现 的 研究 。 因 而 ,本 研究 将 结合 自然 语言 处 理 技术 v] 
法 分 析 主题 模型 .本体 映射 等 理论 技术 与 方法 应 用 于 
虚拟 健康 社区 文本 数据 知识 发 现 的 研究 中 。 
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2 ”虚拟 健康 社区 文本 数据 知识 发 现 策 略 


Twitter Facebook 、 微 博 等 大 众 社 交 媒 体 和 DailyS- 
trength ,Medhelp 等 虚拟 健康 社区 平台 中 每 天 都 会 生成 


大 量 的 健康 相关 数据 ,这 些 由 用 户 生 成 的 数量 众多 的 
与 疾病 诊断 药物 进展 及 药物 不 良 反 应 等 健康 相关 数据 
有 非常 重要 的 研究 和 应 用 价值 。 与 文献 数据 、 科 人 研 数据 
相 比 ,虚拟 健康 社区 文本 数据 不 规范 ,主要 表现 在 :数据 
形式 是 无 结构 的 自由 文本 ;概念 描述 用 词 口 语 化 、 习 惯 
语 程 度 高 .存在 大 量 字符 缺失 、 单 复数 混用 等 现象 ; 实 
体 语 义 关 系 通 过 语 境 来 体现 ,并 未 给 予 直 观 的 抽象 ; 虚 
拟 健康 社区 数据 是 表达 个 人 感受 的 平台 ,客观 事件 夹杂 
着 情感 表达 ,使 得 事件 陈述 更 加 模糊 ;大 量 的 知识 隐 含 
在 事件 中 也 未 显现 。 针 对 这 些 困难 ,在 语言 学 \ 信 息 组 
织 .计算 机 科学 等 理论 的 指导 下 ,分别 对 知识 发 现 过 程 
中 的 实体 识别 .语义 关系 抽取 和 事件 探测 问题 制定 知识 
发 现 策略 ,在 此 基础 上 最 终 形成 较为 完整 的 虚拟 健康 社 
区 数据 挖掘 与 知识 发 现 策略 ,从 而 指导 虚拟 健康 社区 文 
本 数据 中 的 知识 发 现 问题 的 分 析 与 解决 。 

虚拟 健康 社区 知识 发 策略 针对 虚拟 健康 社区 文本 
数据 特点 产生 的 原因 和 各 个 特点 的 表现 形式 进行 了 总 
结 与 分 析 , 且 对 于 虚拟 健康 社区 文本 数据 的 各 个 特点 ， 
结合 信息 组 织 理论 .本 体 映 射 理论 ,计算 机 技术 .自然 
语言 处 理 技 术 等 ,提出 了 有 针对 性 的 解决 方案 ,从 而 指 
导 虚 拟 健康 社区 文本 数据 的 知识 发 现 研 究 , 见 图 1。 
由 于 信息 交流 表现 方式 和 信息 存储 的 自 吴 需求 使 得 虚 
拟 健 康 社区 数据 呈现 文本 化 特点 ,表现 为 数据 的 非 结 
构 化 , 且 多 以 自由 文本 形式 存储 于 网 络 中 。 因 此 ,针对 
文本 化 特点 ,可 通过 构建 半 结 构 化 文本 库存 储 来 自 网 
络 的 虚拟 健康 社区 文本 数据 ;由 于 用 户 生 成 内 容 用 词 
不 规范 、 用 户 自 身 素养 存在 的 差异 性 及 用 户 表达 方式 
的 随意 性 导致 虚拟 健康 社区 文本 数据 具有 概念 描述 口 
语 化 .关系 表达 自由 化 .事件 阐述 模糊 化 及 知识 蕴含 隐 
蔽 性 特点 ,表现 为 用 户 用 词 的 非 专业 化 .文本 中 概念 关 
系 类 型 多 样 ,文本 内 容 组 织 无 序 化 及 数据 分 散 和 知识 
表达 的 模糊 化 ,针对 这 些 特点 ,可 采用 句法 分 析 、 制 定语 
法 规则 、 关 系 主题 模型 和 领域 本 体 等 来 解决 。 基 于 以 上 
虚拟 健康 社区 文本 数据 特点 和 解决 方案 ,本 研究 针对 虚 
拟 健康 社区 数据 中 实体 关系 表达 的 自由 化 提出 基于 语 
法 规则 的 实体 语义 关系 抽取 策略 和 针对 事件 阐述 的 模 
糊 性 提出 事件 探测 策略 ,通过 对 虚拟 健康 社区 知识 发 现 
策略 的 研究 可 以 加 深 对 知识 发 现 理 论 的 认 知 和 理解 ,有 
助 于 促进 知识 发 现 的 应 用 向 纵深 方向 发 展 , 从 而 提高 虚 
拟 健康 社区 自由 文本 中 知识 发 现 的 速度 和 效率 。 
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实体 识别 


在 针对 虚拟 健康 社区 数据 存在 的 各 个 特点 形成 有 
钝 一 性 的 知识 发 现 策略 ,进而 明确 虚拟 健康 社区 数据 
捧 麟 与 知识 发 现 方案 基础 上 ,需要 更 多 地 关注 面向 虚 


拨 大 康 社区 的 文本 数据 知识 发 现 研究 的 核心 问题 ,以 


进步 明晰 工作 流程 ,这 就 需要 对 虚拟 健康 社区 文本 
数据 知识 发 现 模型 进行 研究 ,通过 对 模型 的 各 个 组 成 


信息 交流 表现 方式 
信息 存储 自身 需求 


新 算法 /工具 
实体 规范 化 


半 结构 化 
文本 库 


要 素 及 要 素 之 间 的 关系 对 知识 发 现 策略 的 科学 性 和 可 
行 性 进行 验证 。 
3.1 DIKW 体系 

美国 管理 学 家 罗素 ， 艾 可 构建 了 DIKW R", 
DIKW 体系 是 关于 数据 信息、 知识 及 智慧 的 体系 , 当 
中 每 一 层 对 下 一 层 赋 予 某 些 特质 ""。DIKW 体系 如 表 
1 所 示 : 


表 1 DIKW 体系 


类 别 (class) 价值 (value) 目的 (purpose) 方法 技术 (method/technology ) 
(5 数据 (dam) 原始 素材 know-nothing( 一 无 所 知 ) 数据 第 选 .计算 机 编码 
信息 (infomation) 加 工 处 理 后 有 他 辑 的 数据 know-what( 知道 是 什么 ) 数据 库 技术 .句法 分 析 实体 识别 
知识 (knowledge) “提炼 信息 之 间 的 联系 ,行动 的 能 力 ,完成 当下 任务 。 know-how( 知道 是 怎样 ) 本 体 映射 ,关系 主题 模型 


智慧 (wisdom ) 


关心 未 来 ,具有 预测 的 能 力 


根据 DIKW 理论 总 结 由 数据 到 智慧 的 知识 发 现 , 首 
先 ,对 网 页 .虚拟 健康 社区 等 领域 的 异 构 海 量 数据 进行 
数据 抽取 ;其 次 ,进行 数据 筛选 .数据 清洗 ,使 数据 呈现 
结构 化 、 模 型 化 ;再 次 ,进行 信息 整合 .统计 分 析 和 综合 
归纳 以 形成 知识 ;最 后 ,进行 隐 性 知识 挖掘 ,为 用 户 提供 


know-why( 知道 是 为 何 ) 数据 挖掘 技术 ,专家 验证 


知识 发 现 应 依次 经 过 如 下 过 程 :中 应 用 计算 机 技术 和 
数据 库 技术 从 网 络 中 获取 虚拟 健康 社区 文本 数据 形成 
原始 数据 的 文本 库 , 这 些 原始 数据 须 进行 被 加 工 处 理 
才 具 有 实际 意义 ;中 使 用 自然 语言 处 理 技术 对 获取 的 
数据 进行 初步 分 析 ,形成 信息 相对 集中 的 信息 数据 ,为 


个 性 化 知识 服务 及 辅助 决策 支持 的 智慧 。 由 此 可 见 , 智 
慧 是 从 数据 到 信息 、 再 到 知识 的 层 层 沉淀 凝练 所 得 ,其 
间 要 经 过 数据 采集 ,数据 结构 化 .自然 语言 处 理 、 语 义 化 、 
事件 探测 与 知识 发 现 等 过 程 。 虚 拟 健康 社区 文本 数据 的 
知识 发 现 恰恰 符合 DIKW 体系 从 数据 到 智慧 的 过 程 。 
3.2. DIKW 指导 下 的 虚拟 健康 社区 知识 发 现 模型 

在 DIKW 体系 指导 下 ,虚拟 健康 社区 文本 数据 的 


有 户 提 供 对 数据 的 初步 了 解 ;3 对 信息 数据 进行 句法 
分 析 等 ,进一步 获得 包含 语义 关系 的 知识 ;由 对 包含 语 
义 关系 的 知识 进行 提炼 ,最 终 获得 智慧 数据 。 基 于 此 ， 
面向 虚拟 健康 社区 数据 的 知识 发 现 模型 由 底 向 上 分 为 
5 层 :数据 层 . 自 然 语言 处 理 层 .语义 分 析 层 、 关 系 抽取 
层 . 事 件 探 测 层 。 这 5 层 由 文本 库 构 建 、 命 名 实体 识 
别 、 实 体 语义 关系 抽取 、 事 件 探测 及 知识 发 现 的 工作 流 


Um 
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程 和 技术 路 线 加 以 实现 。 其 中 文本 库 构 建 完成 网 络 数 
据 向 本 地 数据 的 转换 ,数据 由 非 结 构 化 转换 为 半 结 构 
化 ;命名 实体 识别 在 自然 语言 处 理 的 基础 上 ,将 名 词 通 
过 本 体 映 射 实现 规范 化 ;实体 语义 关系 抽取 则 建立 在 
句法 分 析 基 础 上 ,根据 依存 距离 构建 推理 规则 ,依据 推 
理 规则 抽取 命名 实体 间 的 语义 关系 ,基于 此 完成 概念 
和 实体 间 语 义 关 系 的 抽取 ;事件 探测 及 知识 发 现 是 基 
于 概念 /关系 对 数据 中 冀 含 的 事件 进行 探测 ,探测 到 的 
事件 再 通过 领域 内 知识 库 的 验证 完成 事件 抽取 ,最 后 
在 领域 专家 验证 后 实现 知识 发 现 ,如 图 2 所 示 : 


p —| AR 
fü 


实体 语义 | 语义 映射 | 事件 
关系 集合 结果 


事件 
探测 层 


= 一 一 -一 一 个 


"S i 文本 系 
| aF BUS | 单词 | 处理 | is 
一 | 序列 [Eon e 序列 
停止 词 | 集合 集合 集合 
判断 


图 2 虚拟 健康 社区 数据 知识 发 现 概要 模型 


在 图 2 中 ,将 虚拟 健康 社区 文本 数据 知识 发 现 模 
型 分 为 5 层 :数据 层 、 自 然 语言 处 理 层 \ 语 义 分 析 层 X 
系 抽取 层 和 事件 探测 层 。 由 下 而 上 反映 了 虚拟 健康 社 
区 文本 数据 转化 为 领域 知识 与 智慧 的 过 程 。 各 层 之 间 
的 沟通 交流 通过 数据 的 流动 和 转换 实现 。 
3.2.1 数据 层 数据 层 是 知识 发 现 模 型 的 基础 层 。 
主要 包括 数据 源 的 选择 和 文本 库 构 建 两 部 分 ,这 一 层 
实现 了 从 虚拟 健康 社区 中 目标 数据 的 获取 。 数 据 层 的 
功能 和 任务 是 为 命名 实体 识别 和 实体 语义 关系 的 抽取 
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作 数 据 准备 ,是 虚拟 健康 社区 数据 挖掘 与 知识 发 现 的 
起 点 和 保障 。 
3.2.2 ”自然 语言 处 理 层 ”主要 根据 语言 学 理论 实现 
文本 库 中 的 实体 识别 与 抽取 和 文本 句子 分 析 。 实 体 识 
别 与 抽取 依赖 于 语言 学 中 词性 的 分 析 , 选 取 句 子 中 有 
实际 意义 的 名 词 作为 抽取 的 对 象 ,句子 分 析 主 要 基于 
语言 学 中 的 语法 依存 理论 分 析 词 在 文本 中 的 位 置 。 通 
过 这 一 层 的 处 理 , 获 得 包含 初始 关系 的 数据 集合 。 
3.2.3 语义 分 析 层 “虚拟 健康 社区 文本 数据 内 容 的 
复杂 性 表现 为 文本 内 容 中 词 或 概念 的 使 用 不 规范 , 且 
由 于 表述 的 自由 性 , 词 与 词 之 间 的 语义 关联 
难以 揭示 。 在 语义 分 析 层 中 ,通过 借鉴 基于 
ux 顶层 本 体 的 语义 互联 模式 解决 语义 互联 的 
A 方式 ,将 形式 标准 化 后 的 命名 实体 进行 概念 
的 规范 化 ,通过 使 用 领域 本 体 与 自由 文本 进 
行 语义 映射 识别 出 文本 中 的 领域 概念 ,获得 
领域 概念 集合 。 
3.2.4 关系 抽取 层 ”句子 的 语义 由 两 部 分 
组 成 :一 是 组 成 该 句子 的 词 本 身 的 语义 ;二 
是 句子 中 词 与 词 之 间 的 语义 关系 。 句 子 的 
7 句法 结构 和 语义 关系 是 实体 关系 抽取 中 极 
其 重要 的 步骤 ,因此 能 否 正确 地 抽出 文本 中 
实体 关系 在 于 是 否 能 够 根据 句子 语义 的 特 
性 制定 出 具有 较 高 鉴别 能 力 的 抽取 实体 关 
系 的 规则 , 即 推理 规则 的 制定 。 关 系 抽取 层 
通过 制定 推理 规则 实现 实体 间 语 义 关系 的 
识别 ,数据 形式 由 领域 概念 转换 成 包含 语义 
关系 的 概念 /关系 对 。 
3.2.5 事件 探测 层 ”事件 作为 信息 的 重要 
data 表达 方式 ,是 指 特定 的 人 和 物 在 特定 时 间 和 
特定 地 点 相互 作用 的 一 种 客观 事实 。 针 
对 虚拟 健康 社区 的 自由 文本 数据 ,事件 探测 
即 通过 事件 抽取 方法 从 含有 事件 信息 的 文 
本 中 抽取 事件 的 内 容 。 通 过 多 个 领域 本 体 
之 间 的 语义 映射 从 实体 语义 关系 识别 后 的 概念 /关系 
对 中 发 气 潜 在 的 事件 信息 ,并 与 领域 知识 库 或 金 标 准 
进行 对 比 以 发 现 其 中 隐 含 的 领域 新 知识 ,再 经 领域 专 
家 验证 知识 发 现 结果 的 可 靠 性 和 准确 性 ,由 这 一 层 实 
现 知识 到 智慧 的 提升 。 
以 上 是 在 虚拟 健康 社区 知识 发 现 策略 的 指导 下 ， 
以 DIKW 为 体系 ,构建 虚拟 健康 社区 文本 数据 的 数据 
挖掘 与 知识 发 现 概 要 模型 。 下 面 通过 虚拟 健康 社区 药 
物 不 良 反 应 的 挖掘 研究 对 提出 的 知识 发 现 策略 和 构建 
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4 虚拟 健康 社区 中 药物 不 良 反应 知识 


发 现 的 实证 研究 

虚拟 健康 社区 与 其 他 社交 媒体 不 同 之 处 在 于 其 中 
包含 了 大 量 由 用 户 生 成 的 健康 相关 信息 ,因此 能 够 反 
映 出 用 户 对 于 健康 疾病 诊疗 .用 药 的 真实 反馈 ,在 此 类 
数据 中 ,药物 及 其 不 良 反应 是 人 们 最 为 关注 的 医疗 信 
息 类 型 之 一 。 由 于 药物 发 布 前 临床 试验 具有 时 间 . 试 
验 对 象 等 局 限 性 ,不 是 所 有 的 药物 不 良 反应 都 能 够 被 
识别 出 来 , 且 药 物 不 良 反应 造成 的 后 果 可 能 非常 严重 
此 外 ,在 实际 临床 工作 中 ,临床 医生 需要 了 解 可 能 的 药 
物 不 良 反应 从 而 根据 患者 自身 情况 调整 用 药 ;药品 生 
交情 家 也 需要 掌握 药品 上 市 后 的 实际 药物 不 良 反应 情 
况 3| 药 品 药 效 等 做 进一步 的 改良 。 因 此 ,及 时 ,准确 
十 识别 药物 不 良 反应 对 全 球 公共 卫生 系统 来 说 都 是 一 
Aen in acit 
加 根据 前 文 所 述 的 DIKW 体系 和 依据 其 构建 的 虚拟 
健 嘻 社区 文本 数据 知识 发 现 模型 可 以 看 到 ,从 虚拟 健 


P 区 中 药物 不 良 反应 的 知识 发 现 就 是 将 虚拟 健康 社 


si 


药物 不 良 反应 数据 文本 库 构 建 . 药 物 不 良 反应 实体 
识 罚 与 关系 抽取 、 药 物 不 良 反应 事件 探测 及 药物 不 良 
有 应 事件 确认 。 

4. Ee 虚拟 健康 社区 药物 不 良 反应 数据 一 
数 锯 获取 一 一 文本 库 (data-D) 

GD 本 研究 将 在 构建 的 虚拟 健康 社区 文本 


4.2 ”药物 不 良 反 应 信息 抽取 一 一 自然 语言 处 理 一 一 
实体 /概念 库 ( information-I) 
虚拟 健康 社区 文本 数据 的 命名 实体 识别 就 是 从 虚 
拟 健康 社区 自由 文本 数据 中 标注 出 疾病 .药物 .症状 和 
副作用 等 实体 。 鉴 于 医学 领域 本 体能 够 提供 医学 
领域 内 相关 知识 的 决策 支持 信息 ,针对 虚拟 健康 社区 
数据 内 容 中 标准 化 生物 医学 词汇 与 口语 化 表达 共存 的 
Sus ,通过 借助 UMLS™ (一 体 化 医学 语言 系统 )、 
CHV' (用 户 健康 词 表 ) .和 SIDER (药物 不 良 反应 
数据 库 ) 等 医学 领域 本 体 对 虚拟 健康 社区 自由 文本 进 
行 语义 标注 ,实现 自由 文本 与 领域 本 体 间 的 语义 映射 。 
使 用 标准 化 医学 知识 库 UMLS 及 MetaMap 工具 来 识别 
自由 文本 中 的 生物 医学 词汇 ” 。 
4.3 ”药物 不 良 反 应 知识 获取 一 一 语义 关系 抽取 一 一 
语义 关系 集合 (knowledge 下) 
根据 虚拟 健康 社区 实体 语义 关系 抽取 模型 的 功能 
描述 ,首先 通过 与 领域 本 体 映 射 完成 虚拟 健康 社区 文 
本 数据 的 命名 实体 识别 ,识别 出 自由 文本 中 疾病 ,症状 
和 副作用 概念 并 抽取 出 来 。 接 下 来 ,以 文本 中 的 句子 
为 一 个 处 理 单位 ,通过 制定 基于 语法 分 析 的 推理 规则 


对 post 进行 分 析 , 实 现 虚 拟 健康 社区 文本 数据 中 医学 
领域 概念 间 语 义 关 系 的 自动 分 析 与 抽取 , 挖 所 posts 中 
疾病 药物 和 症状 间 的 语义 关系 ,从 而 获得 药物 的 不 恨 
反应 事件 信息 。 研 究 获 得 的 部 分 药物 不 良 反应 知识 发 
现 结果 如 图 3 所 示 : 


drdis drsenloc disease didis. disenloc rule 


数据 知识 发 现 模 型 基础 上 ,对 虚拟 健康 社区 


中 潜在 的 药物 不 良 反应 的 知识 发 现 进 行 实 
证 研究 。 具 体 是 通过 虚拟 健康 社区 Med- 
Help ^ 中 潜在 的 药物 不 良 反应 知识 的 发 现 
对 构建 的 虚拟 健康 社区 文本 数据 知识 发 现 
模型 进行 实证 研究 。 研 究 中 以 肾脏 疾病 
(kidney disease ) 版 块 中 的 帖子 (以 下 称 
posts) 作 为 研究 对 象 ,进行 数据 获取 与 文本 
库 构 建 。 基 于 存储 信息 进行 数据 库 设 计 , 根 
据 MySQL( mysql 5. 6. 24 -win32 ) 中 支持 的 数据 类 型 , 结 
合 MedHelp 中 posts 的 发 帖 人 信息 posts 内 容 长 度 等 实 
际 情 况 ,设计 存储 posts 和 对 posts 进行 处 理 的 过 程 中 
产生 的 数据 的 表 结 构 。 经 过 过 滤 , 从 MedHelp 中 获取 
kidney disease &disorder 主题 下 药物 不 良 反 应 相关 帖子 
共计 19929 个 。 


EN CN 

1 bladder infe 64 -1 BB 
22 1 bladder infe 64 -1 88 
22 1 bladder infe 64 -1 BB 
22 1 bladder infe 64 -1 8B 
22 1 bladder infe 64 -1 BB 
22 1 bladder infe 64 -1 BB 
81 1 null 0 0 BA 
19 0 null 0 0 AA 
4l 0 null 0 0 AA 
19 0 null 0 0 AA 
4l 0 null 0 0 AA 
19 0 null 0 0 AA 
4l 0 null 0 0 AA 
19 0 null 0 0 AA 
4i 0 null 0 0 AA 
40 0 null 0 0 CA 
40 0 null 0 0 CA 
40 0 null 0 0 CA 
40 0 null 0 0 CA 


图 3 实例 验证 部 分 结果 示意 


其 中 黑色 框 标记 所 示 为 药物 muscle relaxant( 肌肉 
松弛 剂 ) - 不良 反应 ache( 疼痛 ) 关 系 对 。 本 人 研究 以 药 
物 不 良 反应 数据 库 SIDER2 中 已 知 的 药物 不 良 反 应 事 
件 信息 作为 领域 金 标准 ,在 获得 的 药物 不 良 反 应 结果 
中 显示 的 是 通过 与 SIDER2 比较 ,将 SIDER 中 已 有 的 
drug-medicalSign 药物 不 良 反 应 事件 对 过 滤 掉 , 即 ,只 
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经 过 与 SIDER2 比较 后 不 在 其 中 的 drug -medicalSign 才 
作为 潜在 可 能 的 药物 不 良 反 应 事件 呈现 给 用 户 。 因 此 
研究 获得 的 事件 探测 结果 即 为 从 虚拟 健康 社区 获得 的 
潜在 药物 不 良 反应 事件 信息 。 
4.4 ”药物 不 良 反应 事件 确认 一 一 事件 探测 一 一 隐 性 
知识 ( wisdom-W ) 

依据 构建 的 事件 探测 模型 ,事件 探测 需要 通过 多 
个 领域 本 体 间 的 语义 映射 区 分 文本 中 哪些 语义 关系 是 
已 经 发 生 的 事件 ,哪些 是 潜在 可 能 的 事件 。 对 通过 知 
识 发 现 模型 发 现 的 药物 不 良 反 应 事件 的 确认 ,就 是 对 
知识 发 现 结果 进行 验证 和 评价 以 发 现 隐 性 知识 的 过 
程 。 因 此 ,研究 中 所 获得 的 drug-medicalSign 关系 对 是 
否 均 为 药物 研究 领域 的 新 知识 还 有 待 于 领域 专家 和 药 
物 -动物 以 及 临床 实验 的 证 实 。 当 经 过 药物 ,动物 实验 
验证 后 的 药物 - 不 良 反应 关系 对 ,将 被 补充 加 入 SID- 
ER 中 ,成 为 金 标准 中 的 一 条 记录 ,从 而 指导 医生 临床 
胖 涩 和 患者 自主 服药 ,并 为 未 来 科研 工作 提供 参考 ,这 
也 疆 知 识 发 现 的 最 重要 的 现实 意义 。 
宗 上 ,虚拟 健康 社区 中 的 posts 经 过 逐步 深入 的 数 
据 您 理 与 提取 ,从 数据 结构 上 实现 了 从 包含 大 量 噪声 
的 属 始 自由 文本 数据 向 规范 化 药物 不 良 反应 领域 知识 
和 鳃 熙 的 凝练 ; 且 对 应 模型 中 的 各 层 ,每 一 层 中 经 过 处 


理 阐 信息 集合 都 为 更 高 层 的 信息 分 析 提供 了 优质 的 数 
据 :你 现 了 数据 价值 的 逐步 升华 ,最 终 为 临床 用 药 、 吓 
着 距 药 和 药物 不 良 事 件 的 减少 做 出 努力 和 贡献 。 

CO 


-本 研究 从 虚拟 健康 社区 文本 数据 挖 抉 与 知识 发 现 
的 难度 和 重点 入 手 ,针对 虚拟 健康 社区 文本 数据 的 非 
结构 化 和 不 规范 化 特点 提出 知识 发 现 策略 ,并 在 策略 
的 指导 下 构建 虚拟 健康 社区 文本 数据 知识 发 现 模型 
进而 基于 此 理论 模型 利用 美国 虚拟 健康 社区 MedHelp 
中 数据 验证 该 模型 的 可 操作 性 ,通过 制定 推理 规则 的 
方法 实现 了 对 虚拟 健康 社区 中 药物 不 良 反应 知识 的 发 
现 。 研 究 中 构建 的 知识 发 现 策略 和 知识 发 现 模型 ,将 
从 社交 媒体 文本 数据 到 其 中 隐 含 的 领域 知识 的 揭示 过 
程 抽 象 成 几 个 不 同 分 析 阶 段 ,通过 各 个 阶段 中 提出 的 
技术 和 方法 的 指导 ,满足 用 户 对 不 同 层次 信息 处 理 的 
需求 ,该 模型 不 局 限于 指导 虚拟 健康 社区 的 知识 发 现 
研究 ,同样 适用 于 其 他 领域 的 知识 发 现 研究 。 本 研究 
的 局 限 性 在 于 :OD 研究 方法 有 针对 性 ,虽然 本 研究 的 方 
法 在 一 定 程度 上 能 够 丰富 知识 发 现 的 理论 和 方法 ,但 
仍 有 一 些 问题 需要 做 进一步 研究 ;加 领域 本 体 覆盖 面 
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有 限 , UMLS 超级 叙 词 表 作 为 识别 文本 中 命名 实体 的 
领域 词典 ,其 本 吴 所 包含 的 概念 数量 将 直接 影响 
MetaMap 的 映射 结果 , 即 对 UMLS 之 外 的 词汇 的 映射 
效果 无 法 保证 ;@@ 本 体 概 念 不 足 ,针对 此 问题 ,未 来 可 
通过 对 领域 本 体 进行 更 多 、 更 全 面 的 调研 ,并 尝试 引入 
更 多 领域 本 体 来 解决 ,以 便 更 有 效 地 实现 文本 中 概念 
的 规范 化 。 随 着 互联 网 技术 和 社交 媒体 技术 的 急速 发 
展 , 会 有 越 来 越 多 的 理论 .技术 和 方法 可 用 于 知识 发 现 
模型 的 构建 中 。 因 此 在 未 来 的 研究 中 ,可 能 会 对 提出 
的 基于 虚拟 健康 社区 文本 数据 的 知识 发 现 模型 进行 调 
整 和 完善 ,使 其 能 够 更 加 有 效 地 实现 虚拟 健康 社区 中 
领域 新 知识 的 发 掘 与 应 用 。 此 外 ,本 研究 提出 通过 制 
定 基 于 推理 规则 的 数据 挖掘 方法 实现 对 虚拟 健康 社区 
文本 数据 的 数据 挖 气 与 知识 发 现 研 究 , 经 验证 证 实 具 
有 可 操作 性 。 在 未 来 研究 中 可 针对 虚拟 健康 社区 文本 
数据 的 特点 进行 新 的 数据 挖掘 与 知识 发 现 方法 的 创 
新 ,本 研究 中 构建 的 知识 发 现 模型 可 作为 新 方法 的 对 
比 模型 ,以 此 促进 新 方法 、 新 技术 的 开发 和 应 用 ,进而 
为 用 户 提 供 更 好 的 健康 知识 共享 服务 。 
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Knowledge Discovery Strategy and Model of Virtual Health Community Text Data 
Mu Dongmei Ju Yuanhong Dai Wenhao Huang Lili? 
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C Abstract: | Purpose/ significance | This study aims to analyze and propose the knowledge discovery strategy and 
build a knowledge discovery model of virtual health community text data. [ Method/process] Firstly it summarized fea- 
tufes of virtual health community text data, in view of the difficult of data mining to formulate the corresponding knowledge 
discovery strategy, and guided by DIKW system, to build knowledge discovery model of virtual health community text data 
based on knowledge discovery strategy. Through the application of computer code, natural language processing, syntactic 
analysis , and methods of inference rules, it realized the sublimation process of data value from free text data to the wisdom 
of adverse drug reactions. [ Result/ conclusion | Empirical research is carried out to verify the effectiveness and operabili- 
ty of the proposed knowledge discovery strategy and knowledge discovery model, so that it can provide reference for the 
subsequent theory and empirical research on knowledge discovery of virtual health community text data. 
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